[セッションレポート] 機械学習の学習や推論に適切なインスタンスを選択するには #reinvent #CMP207

AWS re:Invent 2022

#AWS

#Amazon EC2

せーの

2022.12.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

せーのでございます。

このブログでは2022/11/28（現地）より行われておりますAWS最大のカンファレンス「re:Invent 2022」よりセッション

Choosing the right accelerator for training and inference

の様子をレポートいたします。

概要

Amazon EC2は、機械学習アプリケーションのための最も広範で深いインスタンスのポートフォリオを提供します。P4やG5のようなGPUベースの高性能インスタンスから、最高の価格性能のためにAWSシリコンで構築されたTrn1やInf1インスタンスまで、それぞれの機械学習ワークロードに適したインスタンスが用意されています。このセッションでは、これらのインスタンス、ベンチマーク、および各インスタンスの理想的なユースケースのガイドラインについて学びます。また、機械学習ワークロードを本番環境に導入し、スケールさせる方法をデモでご紹介します。

レポート

技術的には、機械学習モデルを学習・実行するために、より効率的なGPUアクセラレータやCPUを構築することも進んでいる
このセッションでは、AWSが提供するGPUやアクセラレータ、CPUを紹介するとともに、機械学習のスペシャリストがこのハイブリッド要素の最適な組み合わせを選択するためのガイドラインを提供する

機械学習のワークロードを3つのシナリオにわけた
小さなシナリオでは、小さなデータセットやおもちゃのデータセットを使って訓練したシンプルな機械学習モデルや古典的な機械学習モデルを理解することができ、ラップトップで実行できる
中間のサイズのモデルを訓練するためには、500ギガバイトのような、多くはないが中間のサイズのデータセットが必要
数十億のパラメータを持つモデル。これらの巨大なモデルはデータを大量に消費し、これらのモデルを訓練するためにテラバイトからペタバイトのデータが必要
- 最大のパフォーマンスを達成し、ワークロードのコストを削減するために、これらのオプションを検討する必要がある
- より厳しいトレーニングを行う場合、データセットだけでなく、モデルや勾配を複数のインスタンス間で同期させるための非常に優れたネットワークが必要
- 結局、スーパーコンピューターが必要

AWSインスタンスのラインアップ

チップはIntel、AMDのCPU、NVIDIAやAMDのGPU、AWSのカスタムアクセラレーターがある
通常のサイズの機械学習トレーニングと推論を想定しているならCPU系
言語モデルなど大規模な訓練ならNVIDIA GPU A100やB100で動く最新インスタンスを検討すべき
Habana LabsのGaudiチップを搭載したDL1インスタンスやAWS独自のトレーニングチップを搭載したTrn1インスタンスも
複数の選択肢があるためチートシートを作った

考慮するポイント
- スループット
- レイテンシー
- コストが適切かどうか、コスト効率が良いか
一方エンジニアチームは
- 生産性が高いこと
- インスタンスが使いやすいこと
複数の異なるモデルで高速な実験を行うことを優先する場合は、これを参考に様々なカテゴリのインスタンスに対して配置していく
柔軟性を持たせたいならエンジニアはインスタンスを勉強するのに時間を使うべき
モデルの構築そのものに時間を割きたいのであればCPUを使う必要がある
ビジネスを拡大したい、より大きな規模展開をしていきたいのであればGPUへの移行を開始する
- 特にGシリーズはパフォーマンスが高く、幅広いモデルをサポートしている
大規模に展開し、多くの推論を使用して毎日生産を実行したい場合はInferenciaがコスト的にもお得
- SDKを拡大し、PytorchやTensorflowなどの人気のあるフレームワークに統合した

CPUでのトレーニングに向いているもの

従来の機械学習モデルを使っている場合
Scikit-learnなどの昔ながらのフレームワークを使用し、それらがCPU用に作成されている場合
ベストなのは私達が開発したシリコンテクノロジー (Inferencia、Trainium)を使うこと
Gravitonは汎用目的でゼロから作成されたArm64のCPU
- 正確に言えばCPU内部にいくつかのアクセラレータを持っている
- 小さなGPUのようなもので1サイクルでベクトル計算が可能
- bfloat16をサポートし、データサイズを削減できる。がこれはパフォーマンス上は小さな事
Graviton2とGraviton3はパフォーマンスが進化し、C7gはC6gのおよそ2.5倍のパフォーマンスが出る
CPUはCMD命令セットのようなシーケンシャルなコンピューティングに非常に向いている
マトリックス x マトリックス、マトリックス x ベクターのような並列の計算にはアクレラレータをつけるといい
科学的なワークロードを行っていて、ハイレベルな予測が必要な場合はTrn1インスタンスが向いている
- BF16で3.4PFLOPS, FP32で840TFLOPSの学習性能
- インスタンスあたり最大512GBのメモリ
分散型訓練に精通している人はTrn1でクラスタ化させる
- Trn1は通信と計算でコンピューティングエンジンが2つあるので、通信しながら計算が並列で行われる
データセンターレベルではウルトラクラスタの概念が必要
- ビックデータ対策でより多くのアクレラレータを追加
- コンピュータあたり6ExaFLOPSを実現